arxiv：2401.16635v3 [cs.lg] 2024年10月22日__

arxiv：2401.16635v3 [cs.lg] 2024年10月22日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2401.16635v3 [cs.lg] 2024年10月22日

¥ 1.0

热度

从人类馈回（RLHF）中学习的强化学习是一种将大语模型与人类价值保持一致的广泛采用的方法。但是，RLHF依赖于经过有限数量的人类偏好数据训练的奖励模型，这可能导致预测不准确。结果，RLHF可能会产生与人类价值观未对准的输出。为了减轻此问题，我们为奖励合奏方法提供了奖励模型，可以做出更准确的谓词。使用基于大语模型的大型奖励模型可以是计算和资源廉价的，我们探索了效率的合奏方法，包括线性层集合和基于洛拉的合奏。经验上，我们通过结合奖励模式运行最佳n和近端政策优化，并验证我们的集合方法有助于提高RLHF输出的对齐性能。

添加pdf代下载 VIP点击下载文件